Correlation এবং Covariance হল দুটি পরিসংখ্যানিক পরিমাপ যা দুটি চলক বা ভেরিয়েবল-এর মধ্যে সম্পর্ক বিশ্লেষণ করতে ব্যবহৃত হয়। এগুলি আমাদের বুঝতে সাহায্য করে কিভাবে দুটি ভেরিয়েবল একে অপরের সাথে সম্পর্কিত এবং একটি ভেরিয়েবলের পরিবর্তন অন্য ভেরিয়েবলের পরিবর্তনে কিভাবে প্রভাব ফেলে।
১. Covariance:
Covariance দুটি চলক বা ভেরিয়েবলের মধ্যে সম্পর্কের পরিমাপ দেয়। এটি পরিমাপ করে কিভাবে দুটি ভেরিয়েবল একে অপরের সাথে একই দিকে (positive covariance) বা বিপরীত দিকে (negative covariance) চলাচল করে। Covariance-এর মান দুটি ভেরিয়েবলের একে অপরের সাথে সম্পর্কের শক্তি এবং দিক নির্দেশ করে, কিন্তু এটি সেই সম্পর্কের শক্তি নির্দেশ করে না এবং এর একক কোনো নির্দিষ্ট স্কেল থাকে না।
Covariance সূত্র:
এখানে:
- এবং হলো দুটি চলক
- এবং হলো যথাক্রমে এবং -এর গড়
- হলো ডেটার সংখ্যা
Covariance Interpretation:
- Positive Covariance: যদি দুইটি চলক বা ভেরিয়েবল একই দিকে চলতে থাকে (যেমন, উভয় ভেরিয়েবল বাড়ছে বা কমছে), তবে তাদের covariance পজিটিভ হবে।
- Negative Covariance: যদি দুটি চলক বিপরীত দিকে চলে (একটি বাড়ে এবং অন্যটি কমে), তবে তাদের covariance নেগেটিভ হবে।
- Zero Covariance: যদি দুইটি চলক একে অপরের সাথে কোনো সম্পর্ক না থাকে (অর্থাৎ, একটির পরিবর্তন অন্যটির উপর কোনো প্রভাব ফেলে না), তবে covariance শূন্য হবে।
২. Correlation:
Correlation দুটি চলকের মধ্যে সম্পর্কের শক্তি এবং দিক নির্দেশ করে, কিন্তু এটি একটি স্কেল-মুক্ত পরিমাপ, যা চলকদের মধ্যে সম্পর্কের শক্তি নির্ধারণ করতে সাহায্য করে। Correlation সাধারণত Pearson correlation coefficient দ্বারা পরিমাপ করা হয়, যা একটি মান প্রদান করে -১ থেকে +১ পর্যন্ত।
Pearson Correlation Coefficient সূত্র:
এখানে:
- হলো দুটি ভেরিয়েবলের covariance
- এবং হলো যথাক্রমে এবং -এর মান বিচ্যুতি (standard deviation)
Correlation Interpretation:
- r = +1: দুটি চলক মধ্যে পূর্ণ পজিটিভ সম্পর্ক। অর্থাৎ, একটির মান বৃদ্ধি পাওয়ার সাথে সাথে অপরটির মানও বৃদ্ধি পায়।
- r = -1: দুটি চলক মধ্যে পূর্ণ নেগেটিভ সম্পর্ক। অর্থাৎ, একটির মান বৃদ্ধি পাওয়ার সাথে সাথে অপরটির মান কমে যায়।
- r = 0: দুটি চলক মধ্যে কোনো সম্পর্ক নেই। অর্থাৎ, একটির পরিবর্তন অপরটির উপর কোনো প্রভাব ফেলে না।
- 0 < r < 1: দুটি চলক মধ্যে পজিটিভ সম্পর্ক, তবে সম্পর্কের শক্তি ১ এর চেয়ে কম।
- -1 < r < 0: দুটি চলক মধ্যে নেগেটিভ সম্পর্ক, তবে সম্পর্কের শক্তি -১ এর চেয়ে কম।
৩. Correlation এবং Covariance এর মধ্যে পার্থক্য
| বৈশিষ্ট্য | Covariance | Correlation |
|---|---|---|
| মূল্য পরিসীমা | কোনো নির্দিষ্ট পরিসীমা নেই (যেকোনো মান হতে পারে) | -1 থেকে +1 পর্যন্ত |
| একক | একক নির্ধারিত নয় (যেকোনো একক হতে পারে) | একক-মুক্ত (স্ট্যান্ডার্ড পরিমাপ) |
| সম্পর্কের শক্তি | শক্তি নির্ধারণ করতে পারেন না | সম্পর্কের শক্তি এবং দিক নির্ধারণ করে |
| ব্যবহার | দুটি ভেরিয়েবলের মধ্যে সম্পর্কের দিক এবং শক্তি বোঝায় | দুটি ভেরিয়েবলের মধ্যে সম্পর্কের শক্তি এবং দিকের সমন্বিত পরিমাপ |
৪. Pandas-এ Covariance এবং Correlation বিশ্লেষণ
Pandas-এ সহজেই covariance এবং correlation বের করা যায়।
উদাহরণ ১: Covariance বের করা
import pandas as pd
# DataFrame তৈরি করা
data = {'X': [1, 2, 3, 4, 5], 'Y': [5, 4, 3, 2, 1]}
df = pd.DataFrame(data)
# Covariance বের করা
cov_matrix = df.cov()
print(cov_matrix)
এখানে, cov() ফাংশনটি DataFrame এর মধ্যে covariance বের করে দেয়।
উদাহরণ ২: Correlation বের করা
# Correlation বের করা
correlation_matrix = df.corr()
print(correlation_matrix)
এখানে, corr() ফাংশনটি DataFrame এর মধ্যে correlation বের করে দেয়।
সারাংশ
Covariance এবং Correlation দুটি পরিসংখ্যানিক পরিমাপ যা ভেরিয়েবলের মধ্যে সম্পর্ক বুঝতে সাহায্য করে। Covariance সম্পর্কের দিক এবং শক্তি নির্ধারণ করে, তবে এটি একক নির্ধারণে সক্ষম নয় এবং এর মান স্কেল-মুক্ত নয়। অপরদিকে, Correlation ভেরিয়েবলের মধ্যে সম্পর্কের শক্তি এবং দিক বোঝায়, এবং এটি একটি স্কেল-মুক্ত পরিমাপ (যা -1 থেকে +1 এর মধ্যে থাকে)। Correlation সম্পর্কের শক্তি এবং দিক সম্পর্কে আরও বিস্তারিত তথ্য প্রদান করে।
Read more